python 反反爬虫策略之js动态加密url破解

2023-07-26 20:41| 来源: 网络整理| 查看: 265

这次这个爬虫废了我好几天时间，第一次遇到js反爬虫策略，瞬间被打趴下了。不过研究了好几天之后终于是搞定了，求助的一个朋友，最后的原理我可能也不是太清楚，写下来，记录一下，有遇到类似问题的可以参考一下。

这个反爬虫策略，具体是这样的，当我写了一个这样的get请求。

content = requests.get(wanzurl).content

前两百条，都会返回网页源码，然后我能得到我想要的数据，但是每24小时你通过代码访问的超过200条之后，就会返回一个js脚本，神奇的脚本，同一个网址，每次访问返回的脚本都不一样，js脚本是这样的。

看起来刁刁的，于是我尝试看一波js代码，看了一天之后，搞得我恶心的要死，于是求助我朋友，得到部分解密代码，

var location{ assign : set } var url = ""; function set(s){ url = s; } function get(){ return url; }

一共有四种解密的代码，已经全都写好了。大概讲一下思路，先将返回的js代码格式化，然后

看到location调用了assign函数，然后定义一个结构是location的函数

var location{ assign : set } var url = ""; function set(s){ url = s; } function get(){ return url; }

然后python调用get函数，就能返回这个js脚本里面的参数。将写好的js代码，加到返回的js脚本里。

这个服务器返回的js脚本直接执行的话，会在当前的url后面新增一个参数

解密之后，把解出来的参数加到原来的链接之后再次发起请求，服务器就会返回数据。

然后一个通过js动态添加参数的反爬虫策略被完美破解。其中的js代码也是经过混淆，非常的难以看懂，主要就是找到js脚本里面的location，window，和href几个参数，将即将返回的参数，通过添加js代码，直接取出来。

整个破解原理大概是：多次请求之后，服务器不再直接返回源码，而是返回一个js文件，这个js文件执行之后，最终会向url栏添加一串参数，我们写一个函数，将它要返回给浏览器url地址栏的参数，返回出来就好了。。。

不用管它加密的逻辑，反正他最终都要返回一个参数到url地址栏，也就是window.location.href的部分，去看这三个单词相关的代码，然后写代码将最后的参数返回到代码里进行拼接。

【本文地址】

公司简介

联系我们